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(§) Schaitungsanordnung zur Spracherkennung 

@ Die Erfindung bezieht sich auf eine Schaitungsanordnung 
zur Spracherkennung. Zur Erkennung eines Sprachsignals 1st 
es notig, eine Analyse des Sprachsignals mit dem Ziel der 
Extraktion von charakteristischen Merkmalen vorzunehmen. 
Die extrahierten Merkmale warden durch sogenannte spek- 
trale Merkmalsvektoren reprasentiert, die mit fur das zu 
erkennende Sprachsignal abgespeicherten Referenz- Merk- 
malsvektoren verglichen warden. Die Referenz-Merkmals- 
vektoren werden wahrend einer Trainingsphase, in der ein 
Sprachsignal mehrmals aufgenommen wird, ermittelt. Das 
Erkennung sergebn is hangt im wesentlichen von der Gute 
der spektralen Merkmalsvektoren bzw. Referenz-Merkmals- 
vektoren ab. 

Es wird deshalb vorgeschlagen, eine rekursive HochpaQfitte- 
rung der spektralen Merkmalsvektoren vorzusehen. Hier- 
durch wird der Einfluft von StorgroSen auf das Erkennungs- 
*™ ergebnis vermindert und ein hoher Grad an Sprecherunab- 
hSngigkeit der Erkennung erreicht. Dies ermoglicht den 
Einsatz der Schaitungsanordnung zur Spracherkennung 
such in Systemen, die eine sprecherunabhangige Spracher- 
kennung voraussetzen. 
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Beschreibung 



Die Erfindung betrifft eine Schaltungsanordnung zur 
Spracherkcnnung mit einer Auswerteschaltung zur Er- 
mittlung von spektralen Merkmalsvektoren von Zeit- 
rahmen eines digitalen Sprachsignals mittels ; einer 
Spektralanalyse, zur Logarithmierung der spektralen 
Merkmalsvektoren und zum Vergleich der logantn- 
mierten spektralen Merkmalsvektoren mit Referenz- 

Merkmalsvektoren. . 
Sprecherabhangige Spracherkennungsetnnchtungen 

werden in vielen Bereichen erfolgreich eingesetzt, so 
z. B. in Systemen, die gesprochenen Text erkennen, ver- 
stehen und in eine Handlung umsetzen (akustisch gege- 
bene Befehle zur Steuerung von Geraten), wobei das zu 
erkennende Sprachsignal oftmals zusatzlich iiber erne 
Telefonleitung (Fernwirken iiber Telefon) Qbertragen 

In dem Buch "Automatische Spracheingabe und 
Sprachausgabe" von K. Sickert, Haar bei Mtinchen, Ver- 
lag Markt und Technik, 1983, Seiten 223-230 und 
322 -326 wird der prinzipielle Aufbau einer Spracher- 
kennungseinrichtung beschrieben, bei der das Sprachsi- 
gnal zunachst analysiert wird, urn die informationstra- 
genden Merkmale zu extrahieren. Diese Merkmale wer- 
den durch sogenannte Merkmalsvektoren reprasentiert. 
die mit den in einem Referenzspeicher abgelegten, wah- 
rend einer Lernphase ermittelten Referenz- Merkmals- 
vektoren in einer Erkennungseinheit verglichen werden. 

Aus der Verdffentlichung "Verfahren fiir Freispre- 
chen, Spracherkennung und Sprachcodierung in der 
SPS51" von W. Armbriister, S. Dobler und P. Meyer, 
PKI Technische Mitteilungen 1/1990, Seiten 35-41 ist 
eine technische Realisierung einer sprecherabhangigen 
Spracherkennungseinrichtung bekannt. In dieser 
Spracherkennungseinrichtung werden bei einer Analy- 
se eines digitalen Sprachsignals der zeitliche Verlauf 
dieses Signals im Spektralbereich betrachtet und spek- 
trale Merkmalsvektoren ermittelt, die zur Beschreibung 
der charakteristischen Merkmale des Sprachsignals ge- 
eignet sind. In einer Lern- bzw. Trainingsphase, im wei- 
teren als Training bezeichnet, wird jedes zu erkennende 
Wort mehrmals aufgenommen. Dabei werden jeweils 
spektrale Merkmalsvektoren ermittelt, woraus durch 
Mittelung wortspezif ische Referenz-Merkmalsvektoren 
erzeugt werden. Nach AbschluB des Trainings stehen 
fur jedes trainierte Wort Referenz-Merkmalsvektoren, 
' die in einem Referenzmusterspeicher abgelegt smd, zur 
Verfugung. Im Normalbetrieb, der Testphase, werden 
fiir ein zu erkennendes Sprachsignal die spektralen 
Merkmalsvektoren bestimmt und einer Erkennungsein- 
heit zugefQhrt, in der ein Vergleich mit den abgespei- 
cherten Referenz-Merkmalsvektoren mittels eines auf 
der dynamischen Programmierung basierenden Verf an- 

ren stattfindet _ 

Probleme bei der Erzielung eines zuverlassigen Er- 
kennungsergebnisses ergeben sich vor allem durch die 
Oberlagerung des Sprachsignals mit StdrgroBen, wie 
z. B. Verzerrungen des Frequenzganges oder quasista- 
tionare Stdrgerausche. Solche StdrgroBen werden fiber- 
wiegend bei der Obertragung des Signals iiber eine Te- 
lefonleitung und/oder durch Hintergrundrauschen bei 
der Aufnahme eingestreut Zudem verschlechtern sich 
die Erkennungsergebnisse, wenn die Ermittlung von Re- 
ferenz-Merkmalsvektoren wahrend des Trainings unter 
anderen Aufnahmebedingungen als die Ermittlung von 
Merkmalsvektoren wahrend der Testphase erfolgt In 
diesem Fall kann die Erkennungseinheit den Vergleich 



zwischen Merkmalsvektoren und Referenz-Merkmals- 
vektoren nicht mehr zuverl&ssig vornehmen, woraus ei- 
ne Erhdhung der Fehlerrate bei der Erkennung resul- 

tiert. . 
5 Daruber hinaus werden die EinsatzmOghchkeiten von 

Spracherkennungseinrichtungen vor allem dadurch ein- 
geengt, daB die Mehrzahl der bisherigen techmschen 
Realisierungen lediglich zur sprecherabhangigen 
Spracherkennung, die ein Training durch den jeweihgen 
,o Benutzer impliziert, geeignet sind. Ein Einsatz von sol- 
chen sprecherabhangigen Spracherkennungseinrich- 
tungen in Systemen, in denen der gesprochene Text von 
haufig wechselnden Benutzern erkannt und/oder beant- 
wortet werden soil (z. B. vollautomatische Auskunftssy- 
15 steme mit sprachlichem Dialog) ist nur schlecht mdglich. 
Die Aufgabe der vorliegenden Erfindung ist es des- 
halb, eine Schaltungsanordnung zur Spracherkennung 
der eingangs genannten Art so zu verbessern, daB eine 
sprecherunabhangige Erkennung ermdglicht und der 
20 EinfluB von StdrgroBen auf das Erkennungsergebnis 

vermindert wird. 

Die Aufgabe wird erfindungsgemaB dadurch gelost, 
daB vor dem Vergleich mit den Referenz-Merkmalsvek- 
toren in der Auswerteschaltung eine rekursive Hoch- 
25 paBfilterung der spektralen Merkmalsvektoren vorge- 
sehen ist 

Die spektralen Merkmalsvektoren enthalten eine 
Zahl von Komponenten, die wahrend einer Merkmal- 
sextraktion durch zahlreiche Verarbeitungsschritte er- 
30 mittelt werden. Hierbei werden die Komponenten unter 
anderem einer Logarithmierung unterworfen. Stationa- 
re oder langsam veranderliche Stdrungen bzw. Ande- 
rungen des Frequenzganges, die wahrend der Aufnah- 
me oder der Obertragung des Sprachsignals dem zu 
35 erkennenden Sprachsignal Oberlagert wurden, fiihren m 
den logarithmierten Komponenten der Merkmalsvek- 
toren zu additiven Termen, die durch eine HochpaBfilte- 
rung der Komponenten der spektralen Merkmalsvekto- 
ren unterdruckt werden. Daneben wird durch den Ein- 
40 satz einer rekursiven HochpaBfilterung eine erhebliche 
Verbesserung der Sprecherunabhangigkeit der Sprach- 
erkennung erzielt Die Schaltungsanordnung zur 
Spracherkennung muB im Normalfall nur noch einmal 
trainiert werden und ist anschlieBend in der Lage, 
45 Sprachsignale auch dann zu erkennen, wenn sie von 
Personen gesprochen werden, die die Schaltungsanord- 
nung zur Spracherkennung nicht trainiert haben. Hier- 
durch wird ein enormes Anwendungssprektrum fur die 
erfindungsgemaBe Schaltungsanordnung zur Spracher- 
50 kennung eroffnet Sie kann z. B. zur Realisierung eines 
Telefonauskunftssystems mit sprachlichem Dialog oder 
zur Steuerung von Geraten mittels Spracheingabe ein- 
gesetzt werden, wobei das Training der Schaltungsan- 
ordnung zur Spracherkennung bereits vom Hersteller 
55 vorgenommen werden kann und somit ein Trainieren 
durch den Benutzer entfallt Dariiber hinaus bewirkt die 
vor dem Vergleich mit Referenz-Merkmalsvektoren 
vorgesehene Filterung der spektralen Merkmalsvekto- 
ren mit einem rekursiven HochpaB - selbstverstandhch 
6o werden auch die zur Bestimmung der Referenz-Merk- 
malsvektoren ermittelten spektralen Merkmalsvekto- 
ren wahrend der Trainigsphase dieser Filterung unter- 
worfen — eine deutliche Reduzierung des Einflusses 
von stationaren Stdrgerauschen (z. B. durch Brummen 
65 in einer Telefonverbindung hervorgeruf en) und eine 
verbesserte Unterdrttckung von Frequenzgangverzer- 
rungen. Es sei an dieser Stelle bemerkt, daB die Auswer- 
teschaltung der Schaltungsanordnung zur Spracherken- 
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tiling wahlwcise durch einen Prozessor oder durch dis- 
krete Bauelemente gebildet wird Daruber hinaus kon- 
nen ein oder mehrere, der in der Auswerteschaltung 
vorgcschenen Schritte wahlweise mit diskreten Bauele- 
mcntcn oder als Rechnerprogramm eines Prozessors 5 
realisiert werden. 

In einer vorteilhaften Ausgestaltung der EiTmdung 
wird vorgeschlagen, die rekursive HochpaBfilterung 
von der Auswerteschaltung durch Berechnung hoch- 
paflgefilterter spektraler Merkmalsvektoren M(n, i) ge- 10 
mafl der Vorschrift 

M(n, i) - V(n,i) - V(n - l.i) + C - M(n - 1, i) 

vorztmehmen, wobei n einen Zeitrahmen, V(n, i) die un- 15 
gefiiterten spektralen Merkmalsvektoren des Zeitrah- 
mens n, M(n— 1, i) die spektralen Merkmalsvektoren des 
Zeitrahmens n— 1, i eine spektraie Komponente eines 
spektralen Merkmalsvektors M bzw. V und C eine vor- 
gegebene Konstante bezeichnet Bei einer Untersu- 20 
chung von mehreren verschiedenen rekursiven und 
nicht rekursiven HochpaBfilterungen hat sich gezeigt, 
daB die vorgeschlagen e rekursive HochpaBfiiterung er- 
ster Ordnung zu den besten Erkennungsergebnissen 
ffihrt Die GOte dieser Erkennungsergebnisse h&ngt zu- 25 
dem im hohen MaBe von dem fOr die Konstante C ge- 
wahlten Wert ab. Fiir die Konstante C muB ein Wert im 
Bereich von 0 < C < 1 gewahlt werden. Da fiir einen 
Wert von C « 0 der rekursive HochpaB zu einem Diffe- 
renzierer entartet und fur einen Wert C « 1 nur ein 30 
Gleichanteil der Komponenten des spektralen Merk- 
malsvektors unterdruckt wird, hat sich fOr C ein Wert 
von ungefahr 0,7 aJs vorteilhaft erwiesen, urn sprecher- 
spezifische Merkmale in den spektralen Merkmalsvek- 
toren zu unterdrucken. Bei zu groBen Abweichungen 35 
von diesem Wert verschlechtern sich die Erkennungser- 
gebnisse deutlich. 

In einer Ausgestaltung der Erfindung ist fttr eine in 
der Auswerteschaltung vor zunehmende Spektralanaly- 
se eine Aufteilung des digitalen Sprachsignals in sich 40 
Qberlappende Zeitrahmen, eine nachfolgende Wichtung 
der Abtastwerte eines Zeitrahmens mit einem Ham- 
ming-Fenster und eine schnelle Fouriertransformation 
mit einer anschlieBenden Betragsbildung zur Ermittlung 
von spektralen Merkmalsvektoren vorgesehen. 45 

Im einzelnen bedeutet dies, daB jeweils eine bestimm- 
te Zahl von Abtastwerten des digitalen Sprachsignals zu 
Bldcken, im weiteren als Zeitrahmen bezeichnet, zusam- 
mengefaBt wird: Jeder Abtastwert ist dabei in mehreren 
Zeitrahmen enthalten, d. h. die Zeitrahmen sind zeitlich 50 
versetzt und Uberlappen sich. Die Abtastwerte eines 
Zeitrahmens bilden die Grundlage fiir die Ermittlung 
eines dem Zeitrahmen zugeordneten spektralen Merk- 
malsvektors. Bei der Bestimmung des spektralen Merk- 
malsvektors werden die Abtastwerte eines Zeitrahmens 55 
mit einem Hamming-Fenster gewichtet, wie es z. B. in 
dem Buch "Automatische Spracheingabe und Sprach- 
ausgabe" von K. Sickert, Haar bei MQnchen, Verlag 
Markt und Technik, 1983, Seiten 118-119 beschrieben 
ist Die Abtastwerte jedes Zeitrahmens werden im An- 60 
schluB daran einer schnellen Fourier-Transformation 
(FFT) unterworfen und aus dem resultierenden Spek- 
trum wird durch eine Quadrierung und eine Betragsbil- 
dung das Leistungsdichtespektrum ermittelt Die spek- 
tralen Werte des Leistungsdichtespektrums eines Zeit- 65 
rahmens bilden die Komponenten des zugeordneten 
Merkmalsvektors. 
Es sei hier erwahnt, daB die Bestimmung der spektra- 



len Merkmalsvektoren alternativ durch eine Filterbank- 
Analyse, wie sie aus dem Buch "Automatische Sprach- 
eingabe und Sprachausgabe" von K. Sickert, Haar bei 
Munchen, Verlag Markt und Technik, 1983, Seiten 
129-131 bzw. Seite 324 bekannt ist, vorgenommen 
werden kann. Die in der Erfindung eingesetzte, auf der 
schnellen Fouriertransformation basierende Spektral- 
analyse bietet den Vorteil, daB sie im Gegensatz zur 
Filterbank-Analyse, auch mittels eines Programms in 
einem Prozessor, z. B. in einem Signalprozessor, reali- 
sierbar ist 

In einer weiteren vorteilhaften Ausgestaltung der Er- 
findung ist die Auswerteschaltung zur Reduzierung von 
Komponenten der spektralen Merkmalsvektoren durch 
eine Faltung mit Faltungskernen eingerichtet Die Fal- 
tungskerne (Mittenfrequenzen) werden so gewahlt, daB 
sie in regelmaBigen AbstSnden auf der sogenannten 
"mer-Skala (Melodie-Kurve) der subjektiven musikah- 
schen Tonhohe liegen, wodurch eine Auswahl von Kom- 
ponenten der spektralen Merkmalsvektoren nach psy- 
cho-akustischen Aspekten gewthrleistet ist Der Ver- 
lauf der "mer-Skala ist z. B. aus dem Buch "Das Ohr als 
Nachrichtenempfanger" von E. Zwicker und R. Feldt- 
keller, S. Hirzel Verlag, Stuttgart, 1 967 bekannt 

Die aus der Faltung resultierende Unterabtastung 
ftihrt in vorteilhafter Weise zu einer erheblichen Redu- 
zierung der Komponenten der spektralen Merkmals- 
vektoren und damit zu einer deutlichen Datenreduktion. 

Eine weitere Ausffihrungsform zeichnet sich dadurch 
aus, daB eine in der Auswerteschaltung vorzunehmende 
Logarithmierung der spektralen Merkmalsvektoren bei 
einer auf der schnellen Fouriertransformation basieren- 
den Spektralanalyse vor der Faltung vorgesehen ist. 
Hierdurch wird eine Kompandierung der Komponen- 
ten der spektralen Merkmalsvektoren erreicht. woraus 
eine erhebliche Reduktion der zu verarbeitenden Da- 
tenmenge resultiert 

Eine Verringerung des Einflusses von StorgroBen, die 
von im allgemeinen unbekannten Eigenschaften eines 
Obertragungsweges des Sprachsignals abhangig sind, 
wird in einer Ausgestaltung durch eine Intensit&tsnor- 
mierung der spektralen Merkmalsvektoren erzielt Es 
wird hierzu ein Mittelwert der Komponenten eines je- 
den spektralen Merkmalsvektors berechnet und an- 
schlieBend von jeder Komponente subtrahiert Der Mit- 
telwert entspricht einer mittieren Energie eines spektra- 
len Merkmalsvektors und wird deshalb als weitere 
Komponente eines spektralen Merkmalsvektors aufge- 
nommen Durch die vorgeschlagene Intensitatsnormie- 
rung wird zudem die fur die Erkennung nachteilige Ab- 
hangigkeit der Komponenten von der Lauts&rke des 
Sprachsignals anndhernd beseitigt und die Leistungsfa- 
higkeit der Spracherkennung verbessert 

Im folgenden soli anhand des in den Fig. 1 bis 3 sche- 
matisch dargestellten Ausfuhrungsbeispiels die Erfin- 
dung n§her beschrieben und erlautert werden. 

Es zeigt: 

Fig. 1 ein Blockschaltbild einer Schaltungsanordnung 
zur Spracherkennung, 

Fig. 2 ein Fluflablaufdiagramm der Spracherkennung, 
wie sie in der Auswerteschaltung der Schaltungsanord- 
nung zur Spracherkennung vorgesehen ist 

Fig. 3 ein Flufiabiaufdiagramm der Merkmalsextrak- 
tion, wie sie in der Auswerteschaltung der Schaltungs- 
anordnung zur Spracherkennung vorgesehen ist 

Fig. 1 zeigt den Aufbau einer Schaltungsanordnung 
zur Spracherkennung. Ein zu erkennendes analoges 
Sprachsignal 1, das beispielsweise uber ein Mikrofon 
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Oder cine Telefonleitung zugeCQhrt wird und beispiels- 
weise im Frequenzbereich von 03 bis 3,4 kHz liegt, wird 
durch einen Analog-Digital-Wandler 2 mit einer Fre- 
quenz von 8 kHz abgetastet und in ein digitales Sprach- 
signal 3 umgewandelt Eine Auswerteschaltung 4, die im 
AusfUhmngsbeispiel durch einen Signalprozessor mit 
einem Speicher realisiert ist, ermittelt aus dem digitalen 
Sprachsignal 3 ein Erkennungssignal 5, welches in einem 
geeigneten Datenformat Informationen Qber die im di- 
gitalen Sprachsignal 3 erkannten Wdrter enth&lt Das 
Erkennungssignal 5 bildet die Grundlage fiir eine wet- 
terfQhrende Verarbeitung, wie z. B. der Ausldsung von 
Handlungen (Steuerung von Geraten) oder der Ausga- 
be einer Antwort durch eine Spracherzeugung (Diaiog- 
auskunftssystem). Die Schaltungsanordnung kann 
selbstverstandlich in alle gangigen Systeme eingebracht 
werden, in denen die Erkennung von einzelnen Wdrtern 
oder eine kontinuierliche Spracherkennung vorgesehen 
ist Eine Auflistung von Anwendungsmdglichkeiten ei- 
ner Schaltungsanordnung zur Spracherkennung ist z. B. 
in dem Buch "Sprachverarbeitung und Sprachiibertra- 
gung" von K. Fellbaum, Beirlin, Springer Verlag, 1984, 
Seite 204 zu finden. 

Fig. 2 verdeutlicht anhand eines FluBdiagramms die 
in der Auswerteschaltung 4 von Fig. 1 vorgesehenen 
Schritte zur Erzeugung des Erkennungssignals 5. Dabei 
sind gleiche Teile mit den gleichen Bezugszeichen ver- 
sehen. Die Auswerteschaltung 4 wird im Ausfuhrungs- 
beispiel durch einen Signalprozessor mit einem Spei- 
cher gebildet, der entsprechend den FluBablaufdiagram- 
men von Fig. 2 und Fig. 3 programmiert ist. Aus dem 
digitalen Sprachsignal 3 werden mit Hilfe einer Merk- 
malsextraktion (Block 20), deren Schritte in Fig. 3 de- 
tailliert beschrieben werden, spektrale Merkmalsvekto- 
ren 21 gewonnen. 

In der Auswerteschaltung 4 werden durch eine Ver- 
zweigung 22 die zwei Betriebsarten Training" und 
Testphase" unterschieden. Bevor eine Erkennung von 
Wdrtern des digitalen Sprachsignals 3 moglich ist, muB 
die Schaltungsanordnung wahrend des Trainings zu- 
nachst mit den Worten trainiert werden, die spater wah- 
rend der Testphase erkannt werden sollen. Wahrend des 
Trainings wird jedes zu trainierende Wort mehrmals 
aufgenommen und der Schaltungsanordnung zugeftthrt 
Bei jedem Aufnahmevorgang wird eine Merkmalsex- 
traktion (Block 20) vorgenommen und die resultieren- 
den, for das trainierte Wort spezifischen spektralen 
Merkmalsvektoren 21 einem Trainingsblock (Block 23) 
zugefOhrt Im Trainingsblock (Block 23) werden aus den, 
aus mehreren Aufnahmen stammenden Merkmalsvek- 
toren in bekannter Weise eine Reihe von wortspezifi- 
schen Referenz-Merkmalsvektoren gebildet, die an- 
schlieBend abgespeichert (Block 24) werden. Nach Ab- 
schluB des Trainings beinhaltet der Speicher fOr jedes 
trainierte Wort Referenz-Merkmalsvektoren, auf die 
wahrend einer Erkennung (Block 25) in der Testphase 
zugegrif f en wird. 

In der Testphase wird, wie im Training, fur das zu 
erkennende digitale Sprachsignal 3 eine Merkmalsex- 
traktion (Block 20) vorgenommen. Die resultierenden 
spektralen Merkmalsvektoren 21 werden nun jedoch 
Qber die Verzweigung 22 der Erkennung (Block 25) zu- 
geftihrt Die Erkennung (Block 25) ftihrt einen Vergleich 
dfcr spektralen Merkmalsvektoren 21 mit den abgespei- 
cherten (Block 24) Referenz-Merkmalsvektoren durch 
und liefert ein Erkennungssignal 5, daB das Erkennungs- 
ergebnis in geeigneter Form wiedergibt und das Aus- 
gangssignal der Schaltungsanordnung zur Spracherken- 
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nung darstellt 

Aufbau, Abiaufe bzw. Funktionsweise des Trainings- 
blocks (Block 23), die Abspeicherung der Referenz- 
Merkmalsvektoren (Block 24) sowie der Erkennung 
5 (Block 25) sind bekannt aus der Veroffentlichung "Ver- 
fahren fiir Freisprechen, Spracherkennung und Sprach- 
codierung in der SPS51" von W. ArmbrQster, S. Dobler 
urid P. Meyer, PKI Technische Mitteilungen 1/1990, Sei- 
ten 35—41 und/oder aus den Druckschriften The Use 
io of a One-Stage Dynamic Programming Algorithm for 
Connected Word Recognition" von H. Mey IEEE Trans- 
actions ASSP, Vol. ASSP-32, No. 2, April 1984, Seiten 
263 — 271 und "Speaker-dependent connectedspeech re- 
cognition via dynamic programming and statistical me- 
15 thods" von H. Boulard et al., in K. Kohler, Bibliotheca 
Phonetical, (Karger, Basel), No.12, 1985, Seiten 
115-148. 

Fig. 3 zeigt ein FluBablaufdiagramm der Merkmal- 
sextraktion, wie sie in der Auswerteschaltung der Schal- 

20 tungsanordnung zur Spracherkennung vorgesehen ist 
In Fig. 3 werden anhand eines FluBablaufdiagramms die 
notwendigen Schritte fur eine Merkmalsextraktion (vgl. 
Block 20, Fig. 2), wie sie in der Auswerteschaltung 4 der 
Schaltungsanordnung 6 zur Spracherkennung vorgese- 

25 hen ist, naher erl&utert 

Das digitale Sprachsignal 3 wird zunachst in sich 
tiberlappende, aus jeweils 256 Abtastwerten bestehende 
Zeitrahmen gemaB der Vorschrift (Block 30): 

30 B(n, s) - {s(96 . n), . . ., s(96 • n + 255)} 

aufgeteilt, wobei n einen Zeitrahmen, s die Abtastwerte 
des digitalen Sprachsignals 3 und B(n, s) die 256 zu ei- 
nem Zeitrahmen n gehdrenden Abtastwerte s bezeich- 

35 net Die Vorschrift besagt, daB jeder Zeitrahmen n aus 
256 aufeinanderfolgenden Abtastwerten s des digitalen 
Sprachsignals 3 besteht, wobei jeweils nach 96 Abtast- 
werten ein neuer Zeitrahmen gebildet wird, so daB sich 
die Zeitrahmen uberlappen. Da die Abtastung mit einer 

40 Rate von 8 kHz erfolgt, wird alle 96/8000 s - 12 ms ein 
neuer Zeitrahmen gebildet, der 256 Abtastwerte en thai t. 
Wie Block 31 zeigt, wird jeder Zeitrahmen anschlieBend 
einer Wichtung mit einem Hamming-Fenster unterwor- 
fen wie es z. B. aus dem Buch "Automatische Sprachein- 

45 gabe und Sprachausgabe" von K. Sickert, Haar bei 
MOnchen, Verlag Markt und Technik, 1983, Seite 119, 
bekannt ist Dazu wird eine Multiplikation mit einem 
Vektor H, der die Koeffizienten des Hamming-Fensters 
enthalt,gemaB 

50 

Bin, s) « B(n, s) • H 

vorgenommen. Nach der Wichtung mit dem Hamming- 
Fenster (Block 31) wird fOr jeden Zeitrahmen n ein log- 

55 arithmiertes Leistungsdichtespektrum ermittelt (Block 
32), in dem durch eine schnelle Fouriertransformation 
(FFT) ein komplexes Spektrum des Zeitrahmens n be- 
rechnet und daraus durch Bildung eines Betragsquadra- 
tes die Leistungsdichtespektren B(n, f) t wobei f die Fre- 

eo quenz bezeichnet, ermittelt werden. Durch Logarith- 
mierung der Leistungsdichtespektren B(n, Q resultieren 
die logarithmierten Leistungsdichtespektren B(n, f) der 
Zeitrahmen. Die logarithmierten Leistungsdichtespek- 
tren B(n, f) werden somit gem&B der Vorschrift 

65 B(n f 0»log(!FFT(B(n,s))l 2 ) 

ermittelt, wobei B(n, s) die mit dem Hamming-Fenster 
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gewichteten Abtastwerte eines Zeitrahmens n und FFT 
symbolisch die schnelle Fouriertransformation bczeich- 
nct Eine solche Bestimmung der logarithmierten Lei- 
stungsdichtespektren der Zeitrahmen ist z. B. aus der 
Verdffentlichung "Verfahren fur Freisprechen, Sprach- 5 
erkennung und Sprachcodierung in der SPS51" von W. 
Armbrflster, S. Dobler und P. Meyer, PKI Technische 
Mitteilungen 1/1990, Seiten 35-41 bekannt 

Die resultierenden logarithmierten Leistungsdichte- 
spektren B(n, f) der Zeitrahmen enthalten jeweils 256 10 
spektrale Werte. Durch Faltung der logarithmierten 
Leistungsdichtespektren der Zeitrahmen mit 15 FaJ- 
tungskernen K (f, i) gemaB 

V(n,i)- B(n,f)-K(f,i)miti - l,.. n 15 , 5 

wobei V(n, i) einen spektralen Merkmalsvektor, n den 
Zeitrahmen, "• w das Symbol fflr die Faltungsoperation 
und i eine Komponente des spektralen Merkmalsvek- 
tors V(n, i) bezeichnet erhilt man fur jeden Zeitrahmen 20 
n einen spektralen Merkmalsvektor V(n, i). Die Fal- 
tungskerne sind, wie dies bereits in der Beschreibungs- 
einleitung beschrieben wurde, so gewahlt, daB sie bei 
der Faltung fOnfzehn auf der "meF-Skala gleichverteilte 
Spektralwerte aus den Leistungsdichtespektren der 25 
Zeitrahmen extrahiert werden, die zusammen die Kom- 
ponenten eines spektralen Merkmalsvektors V(n, i) Wi- 
den. Die in Block 33 vorgenommene Faltung und die 
anschliefiende Zusammenfassung der resultierenden 
Komponenten zu einem spektralen Merkmalsvektor 30 
V(n, i) fflhrt zu einer erheblichen Datenreduktion und 
vereinfacht die sphere Erkennung. 

Wic Block 34 zeigt wird for jeden spektralen Merk- 
malsvektor V(n, i) die mittlere Energie V(n, 0) gemaB 

V(n,0) - IV(n, i)/15, i - 1, . . 15 35 

bestimmt und als Komponente i — 0 in den spektralen 
Merkmalsvektor V(n, i) aufgenommen. Zudem wird die 
mittlere Energie V(n, 0) von jeder Komponente i — 1, 40 
15 eines spektralen Merkmalsvektors subtrahiert. Dies 
entspricht einer Normierung der spektralen Merkmals- 
vektoren auf die mittlere Energie gemaB der Vorschrift: 

V(n,i)- V(n,i)- V(a0).i- 1,..,15 45 

Es resultiert fur jeden Zeitrahmen ein aus 16 Kompo- 
nenten bestehender spektraler Merkmalsvektor V( n, i). 

AnschlieBend ist fur die spektralen Merkmalsvekto- 
ren V(n, i) eine rekursive HochpaBfilterung gemaB der 50 
Vorschrift 

M(n,i) - V(n,i) - V(n - i,i) + C • M(n - l f i) 

vorgesehen, wobei M(n, i) die hochpaBgefilterten spek- 55 
tralen Merkmalsvektoren, V(n— 1, i) die spektralen 
Merkmalsvektoren des Zeitrahmens n — 1, M(n — 1 , i) die 
hochpaBgefilterten spektralen Merkmalsvektoren des 
Zeitrahmens n-1, und C eine vorgegebene Konstante 
bezeichnet FQr die Konstante C wird ein Wert von 60 
ungefihr 0,7 gew&hlt Die resultierenden spektralen 
Merkmalsvektoren M(n, i) bilden die der weiteren Ver- 
arbeitung zugrundeliegenden Merkmalsvektoren 21. 
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spektralen Merkmals-Vektoren (21) von Zeitrah- 
men eines digitalen Sprachsignals (3) mittels einer 
Spektralanalyse, zur Logarithmierung (32) der 
spektralen Merkmalsvektoren (21) und zum Ver- 
gleich der logarithmierten spektralen Merkmals- 
vektoren (21) mit Referenz-Merkmalsvektoren 
(26), dadurch gekennzeichnet, daB vor dem Ver* 
gleich mit den Referenz-Merkmalsvektoren (26) in 
der Auswerteschaltung (4) eine rekursive Hoch- 
paBfilterung (35) der spektralen Merkmalsvektoren 
(21) vorgesehen ist 

2. Schaltungsanordnung nach Anspruch 1, dadurch 
gekennzeichnet, daB die rekursive HochpaBfilte- 
rung (35) von der Auswerteschaltung (4) durch Be- 
rechnung hochpafigef ilterter spektraler Merkmals- 
vektoren M(n, i) gemaB der Vorschrift 

M(n, i) - V(n,i) - V(n - 1, i) + C - M(n - l,i) 

vorgenommen wird, wobei V(n, i) die ungefilterten 
spektralen Merkmalsvektoren, n einen Zeitrahmen, 
i eine spektrale Komponente eines spektralen 
Merkmalsvektors M bzw. V und C eine vorgegebe- 
ne Konstante bezeichnet 

3. Schaltungsanordnung nach Anspruch 2, dadurch 
gekennzeichnet, daB f Or die Konstante C ein Wert 
im Bereich von 0 < C < 1 gewahltwird. 

4. Schaltungsanordnung nach einem der vorherge- 
henden AnsprOche, dadurch gekennzeichnet, daB 
die in der Auswerteschaltung (4) vorzunehmende 
Spektralanalyse eine Aufteilung (30) des digitalen 
Sprachsignals (3) in sich tiberlappende Zeitrahmen, 
eine nachfolgende Wichtung (31) der Abtastwerte 
eines Zeitrahmens mit einem Hamming-Fenster, ei- 
ne schnelle Fouriertransformation (32) mit einer 
anschlieBenden Betragsbildung zur Ermittlung von 
spektralen Merkmalsvektoren (21) vorsieht 

5. Schaltungsanordnung nach Anspruch 4, dadurch 
gekennzeichnet, daB die Auswerteschaltung (4) zur 
Reduzierung der Zahl von Komponenten der spek- 
tralen Merkmalsvektoren (21) durch eine Faltung 

(33) mit Faltungskemen eingerichtet ist 

6. Schaltungsanordnung nach Anspruch 5, dadurch 
gekennzeichnet, daB in der Auswerteschaltung (4) 
die Logarithmierung (32) der spektralen Merkmals- 
vektoren (21) bei einer auf der schnellen Fourier- 
transformation basierenden Spektralanalyse vor 
der Faltung (33) vorgesehen ist 

7. Schaltungsanordnung nach einem der vorherge- 
henden AnsprOche, dadurch gekennzeichnet daB 
die Auswerteschaltung (4) vor der rekursiven 
HochpaBfilterung (35) zur intensitatsnormierung 

(34) der spektralen Merkmalsvektoren (21) be- 
stimmt ist 
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B(n,s) - {s(96- n),...,s(96- n+255)} 



B(n,s) - B(n,s) • H 



B(n,f) - log(|FFT(B (n,s))j 2 ) 



V(n,i) - B(n,f) * K (f,i) ,1 = 1,. ..15 



v. 



V(n,0) 
V(n,i) 



S V(n,Q/15,l-1,...,15 
V(n,i) - V(n,0) 



M (n,i) = V(n,i) - V(n-1 ,i) + 

c-M(n-1,i), i^O,...,^ 
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